Khiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données

نویسنده

  • Marc Boullé
چکیده

Résumé. Khiops est un outil de préparation des données et de modélisation pour l’apprentissage supervisé et non supervisé. L’outil permet d’évaluer de façon non paramétrique la corrélation entre tous types de variables dans le cas non supervisé et l’importance prédictive des variables et paires de variables dans le cas de la classification supervisée. Ces évaluations sont effectuées au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel, ce qui permet de rechercher une représentation des données efficace au moyen d’un recodage des variables. L’outil produit également un modèle de scoring pour les tâches d’apprentissage supervisé, selon un classifieur Bayesien naif avec sélection de variables et moyennage de modèles. L’outil est adapté à l’analyse des grandes bases de données, avec des centaines de milliers d’individus et des dizaines de milliers de variables, et a permis de participer avec succès à plusieurs challenges internationaux récents.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Khiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables

Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...

متن کامل

Modélisation intégrée de la dynamique des systèmes d'information décisionnels

Résumé. Les systèmes d’information décisionnels (SID) sont des systèmes d’information (SI) qui ont pour objectif de faciliter la prise de décision à partir d’information résultant de processus complexes de dérivation et de préparation des données de SI sources. Ces processus sont généralement peu modélisés et sont directement implantés avec des logiciels spécifiques au cours des projets décisio...

متن کامل

La fouille de graphes dans les bases de données réactionnelles au service de la synthèse en chimie organique

Résumé. La synthèse en chimie organique consiste à concevoir de nouvelles molécules à partir de réactifs et de réactions. Les experts de la synthèse s’appuient sur de très grandes bases de données de réactions qu’ils consultent à travers des procédures d’interrogation standard. Un processus de découverte de nouvelles réactions leur permettrait de mettre au point de nouveaux procédés de synthèse...

متن کامل

Extraction de règles d'association quantitatives - Application à des données médicales

Résumé. L’extraction de règles d’association est devenue aujourd’hui une tâche populaire en fouille de données. Cependant, l’algorithme Apriori et ses variantes restent dédiés aux bases de données renfermant des informations catégoriques. Nous proposons dans cet article QuantMiner, qui est un outil que nous avons développé dans le but d’extraire des règles d’association gérant variables catégor...

متن کامل

Extraction de Règles de Classification à partir des Données Spatiales

Résumé. La fouille de données spatiales est un processus d’exploration des connaissances implicites dans des bases de données volumineuses à références spatiales. Le caractère géométrique des objets que ces bases de données représentent rend le processus d’extraction de la connaissance plus compliqué contrairement aux bases de données numériques traditionnelles. Les algorithmes de la fouille de...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008